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摘 
听觉 刺激 在 其 中 的 作用 及 其 影响 效果 需 进一步 研究 。 


要 ”人们 往往 会 低估 虚拟 环境 中 空间 的 距离 (空间 用 


E 缩 )。 早 其 
本 研究 首先 探究 了 听觉 刺激 的 有 无 对 空间 压缩 的 影响 ,接着 
操控 视听 刺激 之 间 的 物 物 距离 进一步 探究 其 对 空间 压缩 的 影响 和 改善 。 


研究 发 现 视听 刺激 的 不 一 致 会 改善 空间 压缩 ,但 


研究 发 现 听觉 刺激 以 两 种 方式 影响 空间 压 


缩 : 听觉 刺激 的 存在 可 以 改善 空间 压缩 ; 空间 压缩 与 视听 刺激 的 物 物 距离 负 相 关 。 研究 建 议 为 了 改善 空间 压缩 , 视 


听 刺 激 应 当 同 时 呈现 且 物 物 距 离 至 少 为 1 m。 
关键 词 
分 类 号 B842 


1 背景 介绍 
虚拟 现实 (Virtual Reality，VR) 作 为 一 项 新 兴 

AR, 在 科研 、 制 造 、 军 事 、 技 能 培训 等 诸多 领域 均 
有 着 越 来 越 广泛 的 应 用 。 例 如 ,消防 员 可 以 在 虚拟 
火灾 场景 中 进行 多 次 训练 ， 从 而 起 到 降低 成 本 和 各 
免 实 操 伴 随 的 潜在 危险 的 作用 (Saghafian et al., 
2020); 在 心理 学 领域 , 可 以 通过 VR 制作 各 种 刺激 
和 任务 场景 ,提高 心理 学 实验 的 生态 有 效 性 和 可 重 
复 性 (Pan & Hamilton, 2018)。 然 而 , VR 的 普及 仍然 


虚拟 现实 , 空间 压缩 , 视听 刺激 , 物 我 距离 , 物 物 距离 


被 称 为 物 物 距离 。 早 在 20 世纪 ,心理 学 家 们 就 发 现 
了 VR 中 的 空间 压缩 ， 即 人 们 经 常 低 估 虚 拟 环境 中 
的 空间 距离 (Henry & Furness, 1993; Interrante et al., 
2008; Naceri et al., 2009; Renner et al., 2013)。 这 种 
现象 对 虚拟 环境 中 的 物 我 距离 感知 和 物 物 距 离 感 
知 都 是 成 立 的 , 因此 极 大 的 阻碍 了 VR 的 应 用 , 特 
别 是 需要 精细 操作 的 场景 (Li et al., 2011)。 虚 拟 和 现 
实 环境 之 间 明 显 的 感知 差异 破坏 了 用 户 的 沉浸 式 
体验 , 降低 了 他 们 的 接受 度 。 因 此 ,改善 空间 压缩 
以 提高 保 真 度 并 最 终 促进 VR 的 广泛 应 用 是 至 关 重 


面临 着 严峻 的 挑战 ， 如 通信 延迟 、 演 染 质 量 不 高 及 
空间 压缩 等 。 虽 然 随 着 SG 网 络 和 3D 引擎 技术 的 
发 展 ， 硬 件 和 软件 相关 的 挑战 逐渐 得 到 解决 ， 但 由 
于 用 户 自身 所 产生 的 挑战 (如 空间 压缩 ) 仍 然 没 有 得 
到 足够 的 重视 。 

距离 知觉 就 是 由 于 用 户 自身 所 产生 的 挑战 之 
一 。 它 代表 着 受 试 者 感知 两 个 位 置 的 空间 距离 的 能 
力 ， 可 以 分 为 两 种 类 型 : 当 受 试 者 自己 被 视 为 一 个 
位 置 时 ， 自 己 与 另外 位 置 的 距离 被 称 为 物 我 距离 ; 
当 两 个 位 置 均 在 受 试 者 的 外 部 时 ， 两 个 位 置 的 距离 
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要 的 。 

研究 者 们 已 经 报道 了 几 种 改善 空间 压缩 的 方 
法 。 例 如 , Kelly 等 人 (2014) 发 现 , 在 育 走 实验 中 ,与 
没有 视觉 反馈 的 条 件 相 比 ， 当 视觉 反馈 存在 时 受 试 
者 对 于 距离 的 判断 能 力 得 到 了 极 大 的 改善 。 然 而 ， 
这 种 改善 的 效果 是 边际 递减 的 。 视觉 目标 的 存在 只 
对 前 五 次 试验 的 距离 判断 有 明显 的 改善 ， 而 在 接 下 
来 的 试验 中 ,改善 程度 就 会 下 降 。Interrante 等 人 
(2006) 发 现 ， 当 受 试 者 处 于 一 个 与 现实 环境 相似 的 
虚拟 环境 中 时 ,空间 压缩 在 很 大 程度 上 被 削弱 了 。 
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然而 ,这 样 的 改善 会 失去 VR 的 最 大 优势 ， 即 创造 
一 个 在 现实 环境 中 很 少 经 历 的 虚拟 环境 。 此 外 , 空 
间 压 缩 是 一 种 多 模 态 现象 ， 可 以 发 生 在 听觉 和 视觉 
刺激 上 (Rébillat et al., 2012)。Huang 等 人 (2021) 使 用 
音频 混 响 来 改善 受 试 者 的 空间 压缩 。 Finnegan 等 人 
(2016) 发 现 ， 当 虚拟 环境 中 的 听觉 和 视觉 信息 在 空 
间 上 不 一 致 时 , 受 试 者 的 距离 判断 可 以 更 准确 。 这 
里 的 不 一 致意 味 着 听觉 和 视觉 刺激 之 间 的 物 物 距 
离 不 为 零 。 虽然 他 们 没有 进一步 研究 不 一 致 程度 对 
于 空间 压缩 的 改善 效果 , 但 听觉 和 视觉 刺激 的 结合 
是 有 潜力 起 到 改善 作用 的 。 

当 人 们 从 两 种 或 更 多 的 模 态 中 接受 信息 时 ,他 
们 会 整合 所 有 模 态 的 信息 ， 然 后 得 到 一 个 最 终 的 感 
知 判断 (Alais & Burr, 2004; Ernst & Banks, 2002; 
Finnegan et al., 2016)。 以 听觉 和 视觉 模 态 下 的 距离 
感知 为 例 , 受 试 者 的 最 终 判断 将 是 听觉 和 视觉 刺激 
引起 的 距离 感知 的 加 权 总 和 。 如 果 在 虚拟 环境 中 ， 
听觉 刺激 比 视觉 刺激 相对 于 受 试 者 呈现 得 更 远 ( 即 
听觉 刺激 的 物 我 距离 更 大 ), 那么 对 于 视觉 刺激 的 
空间 压缩 会 由 于 听觉 刺激 的 存在 而 得 到 改善 。 然 而， 
这 样 的 多 模 态 整合 理论 仅 适用 于 对 一 个 物体 的 感 
知 。 研 究 表明 ,听觉 和 视觉 刺激 需要 保持 在 一 定 范 
围 内 才能 被 感知 为 一 个 物体 ， 即 所 谓 的 腹 语 效应 
(Bruns，2019)。 因 此 , 在 使 用 不 一 致 的 视听 刺激 来 
改善 空间 压缩 时 ,应 当 考 虑 听觉 和 视觉 刺激 之 间 的 
物 物 距离 。 

此 外 , 受 试 者 和 视觉 刺激 之 间 的 物 我 距离 也 很 
EH, Finnegan 等 人 (2016) 强 调 ， 当 视觉 刺激 与 受 
试 者 的 物 我 距离 很 小 时 (在 他 们 的 研究 中 为 3 m), 
不 一 致 的 视听 刺激 并 不 能 改善 空间 压缩 。 他 们 认为 


感知 到 的 距离 ,但 是 该 方法 易 受 到 受 试 者 早期 生活 
经 验 中 对 于 距离 计量 单位 认 知 的 影响 。 在 感知 引导 
行为 法 中 , 受 试 者 需要 通过 盲 走 或 三 角 盲 走 等 动作 ， 
将 自己 所 走 过 的 实际 距离 作为 自己 对 最 初 看 到 的 
目标 距离 的 回答 , 但 是 该 方法 对 于 实验 场地 的 要 求 
较 高 。 在 想象 行为 法 中 , 受 试 者 需要 在 大 脑 中 想象 
自己 的 行走 ， 通过 将 想象 行走 的 时 间 与 受 试 者 的 行 
走 速度 相 乘 ， 得 到 其 对 于 当前 目标 的 距离 判断 ， 但 
是 该 方法 会 受到 受 试 者 对 于 时 间 长 度 认 知 的 影响 。 
在 感知 匹配 法 中 , 受 试 者 可 利用 心理 物理 学 中 的 调 
整 法 , 不 断 调节 刺激 的 位 置 使 其 与 之 前 出 现 的 目标 
刺激 距离 一 致 ， 抑 或 是 心理 物理 学 中 的 固定 刺激 法 ， 
多 次 进行 二 选 一 的 强制 回答 任务 , 得 到 最 终 的 距离 
判断 (Ellis & Menges, 1998; Wu et al., 2004). 感知 匹 
配 法 利用 认 知 心理 学 领域 中 的 心理 物理 学 方法 ， 避 
免 了 以 上 三 种 方式 的 缺点 , 通过 测量 受 试 者 的 主观 
相等 点 ,得 到 最 终 的 距离 判断 结果 。 尽 管 如 此 ， 以 
往 研究 所 采用 的 调整 法 和 国定 刺激 法 仍 有 缺点 。 调 
整 法 易 受 到 受 试 者 适应 效果 的 影响 ,对 于 绝对 阔 值 
的 测量 并 不 准确 ; 固定 刺激 法 则 极其 花费 时 间 ， 同 
时 对 于 刺激 相关 参数 的 选择 要 求 极 高 。 鉴 于 此 , 本 
研究 采用 心理 物理 学 适应 法 中 的 阶梯 法 , 通过 受 试 
者 对 上 一 个 试 次 中 距离 判断 任务 的 二 选 一 强制 性 
回答 ,实时 调整 下 一 试 次 中 视觉 刺激 的 相关 参数 
(本 研究 中 为 调整 视觉 刺激 的 物 我 距离 ) 从 而 在 减 
少 实验 时 间 的 同时 ， 有 效 地 测量 每 位 受 试 者 的 主观 
距离 判断 。 

在 本 研究 中 , 我们 进行 了 两 个 实验 来 研究 听觉 
刺激 对 VR 中 空间 压缩 的 影响 和 改善 。 尽 管 与 一 致 
的 视听 刺激 相 比 ， 不一致 的 视听 刺激 可 以 改善 空间 


改善 的 失败 是 由 于 受 试 者 会 在 物 我 距离 较 小 时 高 
佑 距离 而 不 是 低估 距离 。 虽 然 研 究 者 们 都 同意 人 们 
会 高 估 离 自己 近 , 低估 离 自己 远 的 刺激 的 距离 , 但 
是 对 于 发 生 高 估 和 低估 现象 的 转折 点 的 距离 并 没 
有 统一 的 答案 (在 不 同 的 研究 中 分 别 为 1 m、1.9 m 
或 3.23 m) (Anderson & Zahorik, 2014; Armbriister 
et al., 2008; Finnegan et al., 2016; Zahorik et al., 
2005)。 尽 管 如 此 , 受 试 者 和 视觉 刺激 之 间 的 物 我 距 
离 足够 大 时 , 就 可 以 很 稳定 地 引起 空间 压缩 。 

以 往 对 于 虚拟 现实 中 空间 压缩 的 研究 一 般 采 
用 四 种 方法 : 口头 报告 法 ， 感 知 引导 行为 ,想象 行 
为 和 感知 匹配 法 (Klein et al., 2009; Maruhn et al., 
2019; Rébillat et al., 2012)。 在 口头 报告 法 中 ,， 受 试 
者 需要 以 米 或 英 义 等 距离 计量 单位 口头 回答 自己 


压缩 , 但 是 我 们 不 清楚 一 致 的 视听 刺激 是 否 会 比 纯 
视觉 刺激 表现 得 更 好 (Finnegan et al., 2016)。 因 此 ， 
在 实验 1 中 , 我 们 操控 了 听觉 刺激 是 否 存在 。 此 外 ， 
我 们 还 改变 了 视觉 刺激 的 物 我 距离 (3 m、4 m、5 m)。 
其 中 , 最 小 的 距离 (3 m) 超 过 了 先前 研究 所 报道 的 
大 部 分 转折 点 的 距离 ,确保 了 空间 压缩 在 本 研究 实 
验 过 程 中 的 出 现 (Anderson & Zahorik, 2014; 
Armbriister et al. 2008; Finnegan et al., 2016; 
Zahorik et al., 2005)。 此 外 ,以 往 研 究 大 都 测量 了 物 
我 距离 为 5 m 时 的 空间 压缩 现象 (Armbriister et al., 
2008; Buck et al., 2021; Finnegan et al., 2016; 
Rébillat et al., 2012)。 为 了 与 以 往 人 研究 的 结果 相对 
比 , 我 们 也 设置 了 物 我 距离 为 4m 和 5 m 时 的 实验 
条 件 。 然 后 , 在 实验 2 中 , 我 们 操控 了 视听 条 件 的 
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不 一 致 程度 ， 即 听觉 和 视觉 刺激 的 物 物 距 离 (0.5 m, 
Im, 1.5m, 2m), BJA Gorzel 等 人 (2012) 发 现 腹 
语 效 应 的 可 接受 的 物 物 距离 会 随 着 视觉 刺激 的 物 
我 距离 的 增加 而 增加 , 但 3m 和 5 m 之 间 的 微小 差 
异 应 该 不 会 对 可 接受 的 物 物 距离 产生 任何 影响 。 


2 实验 1: 听觉 刺激 存在 与 否 对 空 
间 压 缩 的 影响 


2.1 目的 

早 前 研究 发 现 , 与 一 致 的 视听 刺激 相 比 , 不 一 
致 的 视听 刺激 可 以 改善 空间 压缩 , 但 一 致 的 视听 刺 
激 是 否 优 于 纯 视 觉 刺激 还 不 得 而 知 (Finnegan et al., 
2016)。 因此 , 我们 在 这 个 实验 中 操控 了 听觉 刺激 的 
存在 与 否 来 考察 其 对 空间 压缩 的 影响 。 
2.2 it 

30 名 大 学 生 (13 名 男性 和 17 名 女性 , 17~26 岁 ， 
平均 年 龄 = 20.3 岁 ) 被 招募 参加 实验 1 和 实验 2. 
实验 1 和 实验 2 在 同一 天 完成 。 为 了 避免 练习 效应 ， 
对 于 每 个 受 试 者 来 说 , 实验 1 和 实验 2 的 全 部 条 件 
均 随 机 呈现 。 每 位 受 试 者 都 有 正常 或 矫正 后 的 正常 
视力 ,并 且 不 具有 脑 部 或 精神 疾病 的 历史 ,我 们 也 
征 得 了 每 位 受 试 者 的 书面 同意 。 本 研究 的 实验 方案 
得 到 了 陕西 师范 大 学 伦理 委员 会 的 批准 。 
2.3 ”实验 设备 与 刺激 材料 

我 们 使 用 HTC Vive Pro 来 演 染 虚拟 环境 ， 内 置 
的 耳机 被 用 来 呈现 听觉 刺激 ， 一 个 键盘 放 在 手边 ， 
以 接收 受 试 者 的 反应 。 

VR 场景 是 用 虚幻 引擎 (4.25 版 ) 制 作 的 。 我 们 使 
用 了 引擎 的 内 部 材料 : 地 面 是 白色 ,环境 完全 开放 ; 
自然 阳光 被 用 来 作为 环境 光 ， 从 受 试 者 的 背后 照射 ; 
视觉 刺激 是 由 非 反 射 材料 组 成 。 视 觉 刺激 是 两 个 
1m x 1 m 的 方块 其 中 心 距 地 面 1.5 m。 受 试 者 的 
眼睛 与 视觉 刺激 保持 水 平 ， 以 避免 视觉 水 平 线 对 距 
离 感 知 的 影响 (Rand et al., 2011)。 参 考 刺 激 是 一 个 
绿色 方块 ， 有 三 种 物 我 距离 : 3m、4m 和 5 m; 调 
整 刺激 是 一 个 蓝 色 方块 ,其 初始 的 物 我 距离 为 比 参 
考 刺 激 的 物 我 距离 小 0.5 m。Armbriister 等 人 (2008) 
在 他 们 的 实验 里 发 现 ， 当 物 我 距离 为 4 m 时 , 23 名 
受 试 者 的 平均 主观 距离 为 3.2 土 0.3 m 左右 ,为 了 使 
得 实验 中 每 一 个 试 次 中 的 视觉 刺激 的 物 我 距离 都 
在 最 终结 果 附 近 变 化 , 对 于 4 m 物 我 距离 的 实验 来 
说 , 我 们 设置 调整 刺激 的 初始 物 我 距离 为 3.5 m ( 即 
比 参考 刺激 小 0.5 m)。 由 于 我 们 有 三 种 物 我 距离 的 
条 件 (3 m、4 m、5 m), 我 们 将 比 参 考 刺 激 小 0.5 m 


作为 每 一 个 物 我 距离 的 初始 设置 。 实验 中 所 使 用 的 
噪音 为 粉红 噪音 (粉红 噪音 的 频率 能 量 分 布 主要 在 
中 低频 段 ， 更 容易 被 人 耳 所 接受 ,因此 常用 于 声学 
测试 )， 噪 音声 源 选 取 了 音量 大 小 全 程 无 变化 的 声 
音 ， 强 度 为 60 dB， 时 长 为 5 秒 。 

2.4 实验 程序 

在 实验 1 中 ,听觉 刺激 有 两 种 条 件 ， 分 为 存在 
或 不 存在 。 受 试 者 首先 需要 进行 一 个 练习 实验 ， 以 
了 解 实验 说 明 并 熟悉 HTC Vive Pro 的 操作 。 练 习 实 
验 包 括 10 次 试验 , 受 试 者 应 通过 按 “A”( 代 表 蓝 色 
方块 ) 或 “D”( 代 表 绿 色 方 块 ) 来 回答 哪个 方块 (绿色 
或 蓝 色 ) 离 他 们 更 近 。 练习 结束 后 ， 受 试 者 被 要 求 进 
行距 离 判 断 任务 。 由 于 视觉 反馈 可 以 改善 空间 压缩 ， 
从 而 污染 听觉 刺激 的 效果 ， 因 此 参考 视觉 刺激 在 一 
个 实验 中 仪 呈现 一 次 (Kelly et al., 2014)。 

每 种 条 件 的 实验 的 第 一 次 试验 开始 时 有 5 秒 的 
参考 期 间 , 在 此 期 间 呈 现 参 考 视 觉 刺 激 (绿色 方块 ); 
如 果 当 前 实验 包括 听觉 刺激 ， 则 会 有 5 秒 的 粉红 品 
声 与 参考 视觉 刺激 同时 呈现 。 接 着 , 参考 视觉 刺激 
和 听觉 刺激 (如 果 存 在 的 话 ) 同 时 消失 。0.5 秒 后 ， 调 
整 视觉 刺激 ( 蓝 色 方块 ) 会 被 呈现 。 受 试 者 需要 判断 
在 调整 期 间 ， 蓝 色 方 块 是 否 比 最 初 呈 现 的 绿色 方块 
离 自 己 更 近 。 当 受 试 者 认为 蓝 色 方块 更 近 时 ,应 该 
fe RSA”, 否则 按 下 “D”。 受 试 者 一 旦 作出 反应 ， 蓝 
色 方 块 就 会 消失 0.5 H, 下 一 次 试验 开始 , 并 呈现 
出 一 个 新 的 蓝 色 方块 。 如 果 受 试 者 在 前 一 次 试验 中 
认为 蓝 色 方块 更 近 , 则 当前 试验 新 呈现 蓝 色 方 块 的 
物 我 距离 将 向 近 手 侧 移动 5cm, 反之 向 远 手 侧 移 
动 5 cm。 连 续 进 行 30 次 试验 后 ， 当 前 实验 结束 。 
最 后 一 次 试验 中 蓝 色 方块 的 物 我 距离 ， 将 作为 受 试 
者 对 初始 绿色 方块 的 最 终 距离 判断 。 受 试 者 应 当 在 
没有 速度 要 求 的 前 提 下 , 尽 可 能 准确 地 回答 距离 判 
WEZ - 

对 于 每 个 实验 , 参考 刺激 的 物 我 距离 (3 m, 4m 
和 5 m) 是 固定 的 。 此 外 , 在 实验 1 中 ,听觉 刺激 的 
存在 或 不 存在 在 一 个 实验 中 也 是 固定 的 ， 因此 实验 
1 总 共有 6 个 实验 。 

2.5 结果 

我 们 对 空间 压缩 率 进行 了 3x2 的 重复 测量 方差 
分 析 。 为 了 使 得 空间 压缩 率 为 正 值 以 美化 图 示 , 我 
们 在 参考 Armbriister 等 人 (2008) 的 研究 的 基础 上 ， 
将 空间 压缩 率 定义 为 实际 的 物 我 距离 减 去 受 试 者 
感知 的 物 我 距离 ， 然后 除 以 实际 的 物 我 距离 。 被 试 
内 因素 包括 参考 刺激 的 物 我 距离 (3 m、4m 和 5 m) 


4 心 理 


ChinaXiv 合 作 期 刊 


第 55 卷 


学 R 


和 听觉 刺激 的 存在 (视听 条 件 和 纯 视 觉 条 件 )。 

空间 压缩 率 的 结果 如 图 1 所 示 ， 其 中 横 坐 标 代 
表 参 考 刺 激 的 物 我 距离 ， 纵 坐标 代表 空间 压缩 率 ， 
不 同 的 颜色 分 别 代表 视听 条 件 和 纯 视觉 条 件 。 我们 
发 现 , 视听 条 件 下 的 空间 压缩 率 要 小 于 纯 视 觉 条 件 
下 的 压缩 率 , F(1, 29) = 4.05, p = 0.054, nf = 0.12。 然 
而 , 参考 刺激 的 物 我 距离 的 主 效 应 和 两 个 被 试 内 因 
素 之 间 的 交互 作用 并 不 显著 (ps > 0.05)。 其 描述 性 
统计 由 表 1 所 示 。 


10 L 听觉 刺激 的 存在 
BAMA 
gL as mA 
* 
s'ia j 
= 6| | 
$ 
= 4} 
KH 
2L 
oL 
1 1 1 
3 4 5 
参考 刺激 的 物 我 距离 (m) 


图 1 实验 1 空间 压缩 率 的 结果 。 横 轴 代 表 参 考 刺激 的 
物 我 距离 ; 纵 轴 代表 空间 压缩 率 。 深 色 条 和 灰色 条 分 别 
表示 视听 和 纯 视 觉 条 件 。 可 达到 显著 水 平 的 事后 统计 结 
果 呈 现在 相应 的 位 置 。 黑 色 的 误差 线 代 表 30 名 受 试 者 的 
平均 值 的 标准 误差 。 


YE: ***p<0.001; ** p< 0.01; * p< 0.05; +p <0.1. 


表 1 实验 1 空间 压缩 率 的 描述 性 统计 (M + SE) 


实际 距离 
听觉 刺激 的 存在 
4m 5m 
纯 视 觉 条 件 7.22% + 1.21% 7.00% 0.80% 6.20% + 0.79% 


视听 条 件 
视听 - 纯 视觉 
注 : * 表 示 p < 0.05 


6.44% + 0.98% 5.17% + 1.04% 
t=-0.51, t=-1.59, 


4.60% + 0.60% 
t=—1.85,” 


然后 , 我 们 对 在 不 同 的 参考 刺激 的 物 我 距离 下 
的 视听 条 件 和 纯 视 觉 条 件 的 空间 压缩 率 进行 了 配 
对 的 单 侧 t 检 验 ， 自 由 度 为 29， 其 结果 如 表 1 所 示 。 
我 们 发 现 , 在 物 我 距离 为 4 m (差别 = 1.83%, p = 
0.062) 和 5 m (差别 = 1.60%, p = 0.037) 时 ， 视 听 条 
件 的 空间 压缩 率 小 于 纯 视 觉 条 件 ， 但 物 我 距离 为 
3 m 时 则 不 然 (p = 0.307)。 

受 试 者 在 视听 条 件 下 能 比 纯 视觉 条 件 下 做 出 
更 准确 的 距离 判断 ,尤其 是 对 于 更 远 的 视觉 刺激 
( 物 我 距离 为 4m 或 5m 时 )， 这 种 效果 就 更 加 明显 ， 
可 分 别 达 到 显著 的 1.83% 和 1.60% 的 效果 提升 。 早 


期 研究 已 经 报道 了 听觉 刺激 可 以 用 来 扩展 受 试 者 
对 于 立体 图 像 的 深度 感知 (Turner et al., 2011)。 因 此 ， 
听觉 刺激 本 身 可 以 改善 视觉 刺激 的 空间 压缩 。 在 下 
一 个 实验 中 , 我 们 将 控制 听觉 和 视觉 刺激 之 间 的 物 
物 距 离 ， 以 研究 视听 条 件 的 不 一 致 程度 对 于 空间 压 
缩 的 影响 。 


3 实验 2: 听觉 和 视觉 刺激 之 间 的 
物 物 距 离 对 空间 压缩 的 影响 


3.1 目的 

我 们 发 现 听 觉 刺 激 本 身 可 以 改善 空间 压缩 。 此 
外 ,早期 研究 表明 ,不一致 的 视听 刺激 可 以 进一步 
改善 空间 压缩 (Finnegan et al., 2016)。 因 此 , 在 本 实 
验 中 , 我 们 控制 了 听觉 和 视觉 刺激 之 间 的 物 物 距 离 ， 
以 研究 视听 条 件 的 不 一 致 程度 对 空间 压缩 的 影响 。 
3.2 ”被 试 、 实 验 设 备 与 材料 

被 试 、 视 觉 和 听觉 材料 均 与 实验 1 相同 。 
3.3 ”实验 流程 

实验 2 与 实验 1 的 实验 流程 相同 ,在 实验 2 中 ， 
听觉 刺激 一 直 存 在 ， 且 其 与 视觉 刺激 之 间 的 物 物 距 
离 是 4 种 条 件 : 0.5m、1m、1.5m 和 2m。 实 验 2 
总 共有 12 个 实验 。 
3.4 结果 

与 实验 1 类 似 , 我 们 对 空间 压缩 率 进 行 了 3x5 
的 重复 测量 方差 分 析 。 由 于 实验 1 和 实验 2 招募 了 
相同 的 受 试 者 ,实验 1 中 视听 条 件 的 结果 ， 即 物 物 
距离 为 0 m, 也 被 包含 在 当前 的 分 析 中 。 被 试 内 因 
素 包 括 参 考 刺 激 的 物 我 距离 (3 m、4 m 和 5 m) 以 及 
听觉 和 视觉 刺激 物 之 间 的 物 物 距 离 (0 m、0.5 m, 
1m、1.5m 和 2 m)。 

本 实验 发 现 ， 听 觉 和 视觉 刺激 之 间 的 物 物 距离 
的 主 效应 是 显著 的 , F(4, 116) = 8.29, p < 0.001, n$ = 
0.22。 然 而 ,参考 刺激 的 物 我 距离 的 主 效应 和 两 个 
被 试 内 因素 之 间 的 交互 作用 并 不 显著 (ps > 0.05)。 
其 描述 性 统计 由 表 2 所 示 。 


表 2 实验 2 空间 压缩 率 的 描述 性 统计 (M+SE) 


物 物 距离 (m) 实际 距离 
3m 4m 5m 
0 6.44% + 0.98% 5.17% + 1.04% 4.60% + 0.60% 
0.5 4.44% + 1.43% 4.33% +0.71% 3.67% + 0.67% 
1 3.44% + 1.06% 3.25% 1.01% 2.47% + 0.73% 
1.5 2.00% + 1.95% 2.25% 1.73% 1.13% 0.99% 
2 0.78% + 1.23% 0.58% + 0.80% 0.67% + 0.63% 
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表 3 实验 2 空间 压缩 率 的 事后 检验 结果 
物 物 距离 (m) Z 值 p 值 
0.5~0 一 1.38 0.648 
1~0 -2.56 0.078 
1.5~0 —3.93™ <0.001 
2~0 一 53.15 <0.001 
1~0.5 一 1.19 0.756 
1.5 ~ 0.5 一 2.58- 0.077 
2~0.5 -3.80" 0.002 
1.5~1 一 1.37 0.645 
2~1 -2.59* 0.072 
2~1.5 一 1.22 0.740 
10 上 
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图 2 实验 2 空间 压缩 率 的 结果 。 横 轴 代 表 视 听 刺 激 的 
物 物 距 离 ; 纵 轴 代 表 空 间 压 缩 率 。 可 达到 显著 水 平 的 事 
后 统计 结果 呈现 在 相应 的 位 置 。 黑色 的 误差 线 代 表 30 名 
受 试 者 的 平均 值 的 标准 误差 。 

YE: *** p < 0.001; **p<0.0l;*p<0.05;+p<0.1。 


然后 , 在 混合 参考 刺激 的 三 个 物 我 距离 的 结果 
之 后 , 我们 进行 了 Tukey 多 重 比 较 检 验 ， 其 结果 如 
表 3 所 示 。 空 间 压 缩 率 的 结果 如 图 2 Pras, 其 中 横 
坐标 代表 听觉 和 视觉 刺激 的 物 物 距离 ， 纵 坐标 代表 
空间 压缩 率 。 我 们 发 现 ， 空间 压缩 率 随 着 物 物 距离 
的 增加 而 降低 。 此 外 ， 当 比较 任意 两 个 相距 至 少 
Im 的 物 物 距 离 时 ,空间 压缩 率 可 以 达到 边缘 显著 
或 显著 的 差异 (ps < 0.08)。 

最 后 ,我 们 利用 RR 语言 的 1m 函数 ， 拟 合 了 一 条 
以 听觉 和 视觉 刺激 的 物 物 距离 (0 m, 0.5m, 1m, 
1.5 m 和 2 m) 为 自 变量 ,空间 压缩 率 为 因 变量 的 线 
性 曲线 (图 2 中 的 虚线 ), 结果 如 下 : 空间 压缩 率 = 


讯 技 术 的 时 延 、 速 率 等 瓶颈 问题 , 但 对 VR 技术 的 
普及 和 应 用 提出 了 更 高 的 要 求 , 为 了 使 该 技术 得 到 
更 好 的 推广 与 使 用 ， 虚拟 环境 中 空间 压缩 这 一 瓶颈 
问题 必须 得 到 有 效 的 改善 或 解决 ; 此 外 ， 随 着 虚拟 
现实 技术 的 成 熟 ， 其 应 用 领域 有 望 扩展 到 科研 、 制 
造 、 军 队 和 消防 员 应 急 服务 训练 等 多 个 领域 ， 虚 拟 
环境 中 正确 的 空间 感知 除了 对 VR 技术 某 些 功能 

至 关 重 要 的 作用 外 , 还 可 以 作为 用 户 接受 度 的 指标 
来 衡量 虚拟 环境 的 保 真 度 ， 因 此 ， 有 效 解 决 或 改善 
该 问题 也 是 提高 VR 技术 应 用 中 以 用 户 为 中 心 的 体 
验 需求 一 个 根本 指标 。 基 于 此 , 本 项 目 拟 就 虚拟 环 
境 中 的 空间 压缩 问题 展开 系统 的 研究 ,我 们 研究 了 
听觉 刺激 对 VR 中 空间 压缩 的 影响 和 改善 。 

在 实验 1 中 , 我 们 发 现 通 过 将 听觉 刺激 与 视觉 
刺激 一 起 呈现 ,特别 是 当 物 我 距离 较 大 时 ,空间 压 
缩 可 以 得 到 改善 。 在 实验 2 中 , 我 们 发 现 ， 如 果 听 
觉 和 视觉 刺激 之 间 的 物 物 距离 增加 ， 空 间 压 缩 可 以 
进一步 改善 。 这 是 个 简单 的 负 相 关 关 系 。 任 何 大 于 
1 m 的 物 物 距离 的 增加 都 可 以 显著 改善 空间 压缩 。 
根据 我 们 的 结果 ,我 们 强烈 建议 在 视觉 刺激 后 面 至 
少 1m 处 同时 呈现 听觉 刺激 以 改善 虚拟 环境 中 的 空 
间 压 缩 。 当 物 物 距离 的 差距 为 1 m 的 时 候 , 我 们 虽 
然 得 到 的 都 是 边缘 显著 的 结果 , 但 是 我 们 仍 将 其 认 
为 是 可 以 达到 有 效 改 善 的 。 这 是 因为 对 于 1 m 和 
1.5 m 之 间 更 为 细致 的 物 物 距离 (1.1 m, 1.2 m 等 )， 
我 们 并 没有 进行 实际 测试 。 但 是 根据 我 们 拟 合 的 曲 
线 (图 2)， 即 使 是 提升 0.1 m 的 物 物 距离 , 空间 压缩 
会 得 到 一 定 程 度 的 改善 ,因此 我 们 的 建议 是 从 物 
物 距离 为 1 m 开始 , 使 得 VR 的 设计 师 们 有 更 大 的 
选择 。 

我 们 在 两 个 实验 中 都 没有 发 现 视觉 刺激 的 物 
我 距离 的 主 效应 ,这 与 之 前 的 研究 并 不 一 致 (Buck 
et al., 2018; Buck et al., 2021)。 我 们 将 其 归 因 于 本 研 
究 中 的 物 我 距离 之 间 的 较 小 区 别 (最 大 区 别 为 2 m)。 
Buck 等 人 (2018) 利 用 与 本 研究 相同 的 设备 (HTC 
Vive Pro), 测试 了 三 种 物 我 距离 下 (5 m、7.5m 和 
10 m) 的 空间 压缩 。 他 们 虽然 报告 了 物 我 距离 的 显 
著 主 效应 , 187.5 m 和 10 m 之 间 的 差异 并 没有 达到 


一 2.4% x 物 物 距离 + 5.6%。 其 中 , 斜率 可 达到 显著 
水 平 = 0.008), 表明 空间 压缩 率 与 物 物 距离 呈 负 
相关 , 并 日 每 1 m 可 以 改善 2.4% 的 空间 压缩 率 。 


4 讨论 


随 着 5G 时 代 的 到 来 , 5G 网 络 很 好 地 解决 了 通 


显著 水 平 。 因 此 , 物 我 距离 对 空间 压缩 的 影响 并 不 

我 们 发 现 听 觉 刺激 有 两 种 影响 空间 压缩 的 方 
Tho AG, 与 没有 听觉 刺激 的 情况 相 比 ， 听 觉 刺 激 
的 存在 可 以 提高 距离 判断 的 准确 性 。 由 于 距离 感知 
是 一 种 多 模 态 现象 ,听觉 刺激 所 携带 的 额外 信息 可 
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以 帮助 受 试 者 提高 他 们 的 最 终 判 断 的 准确 性 (Rébillat 
et al., 2012)。 其 次 , 空间 压缩 率 与 听觉 和 视觉 刺激 
之 间 的 物 物 距离 呈 负 相关 。 当 受 试 者 接受 来 自 于 一 
个 物体 的 多 种 模 态 的 信息 时 ， 他 们 倾向 于 计算 每 种 
模 态 的 加 权 后 的 感知 ， 然 后 整合 它们 以 获得 最 终 的 
判断 (Berry et al., 2014; Ernst & Banks, 2002; Finnegan 
et al., 2016)。 一 旦 听觉 和 视觉 刺激 的 物 我 距离 不 一 
致 ， 受 试 者 的 最 终 判断 将 是 加 权 的 听觉 和 视觉 判断 
之 和 。 以 本 文 的 实验 条 件 为 例 ， 当 听觉 刺激 呈现 在 
视觉 刺激 后 面 时 ， 听觉 刺 激 携 带 的 距离 信息 与 视觉 
刺激 携带 的 距离 信息 相 比 会 更 远 ， 从 而 改善 视觉 刺 
激 的 空间 压缩 。 

我 们 成 功 地 为 空间 压缩 率 和 物 物 距离 拟 合 了 
一 条 线性 曲线 ,固定 的 斜率 系数 (-0.024) 表 明 ， 本 研 
究 中 的 听觉 和 视觉 模 态 各 自 的 权重 保持 不 变 。 然 而 ， 
权重 是 可 以 发 生变 化 的 。 例 如 , 通过 改变 视觉 刺激 
的 模糊 程度 ， 从 而 降低 视觉 模 态 的 权重 (Finnegan 
et al., 2016)。 因 此 ,尽管 我 们 发 现 空间 压缩 可 以 通 
过 每 1 m 物 物 距 离 的 增加 而 实现 2.4% 的 改善 , 但 改 
善 的 效果 并 不 固定 。 如 果 通 过 某 些 操 作 增加 了 听觉 
模 态 的 权重 ， 如 前 面 提 到 的 模糊 视觉 刺激 ,改善 的 
效果 可 能 会 增强 。 值 得 注意 的 是 , 物 物 距 离 不 应 该 
过 大 ,否则 腹 语 效应 就 会 失 录 ， 从 而 无 法 整合 多 种 
模 态 的 信息 (Bruns，2019)。 此 外 , 不 合适 的 物 物 距 
离 也 可 能 会 导致 距离 的 高 估 ， 而 不 是 空间 压缩 的 改 
善 (Finnegan et al., 2016)。 如 图 2 所 示 ， 当 物 物 距离 
为 2m 时 , 空间 压缩 率 约 为 0.7%。 因 此 , 在 本 研究 
F, 物 物 距 离 大 于 2 m 时 ， 可 能 会 导致 距离 高 估 。 

本 研究 仍 存在 局 限 性 。 首 先 , 我 们 使 用 了 一 个 
修订 的 心理 物理 学 范式 。 与 典型 的 二 选 一 方法 不 同 ， 
本 研究 中 参考 视觉 刺激 仅 呈 现 一 次 ， 以 消除 视觉 反 
馈 对 空间 压缩 的 影响 (Kelly et al., 2014)。 然 而 ， 这 
样 的 操作 可 能 会 引起 记忆 问题 。 受 试 者 必须 记 住 参 
考 刺 激 的 感知 距离 ， 以 便 在 一 个 实验 内 进行 后 续 判 
Wo 我 们 需要 在 未 来 采用 一 种 可 以 同时 避免 视觉 反 
馈 和 记忆 干扰 的 新 范式 。 其 次 ,本 研究 所 采用 的 视 
觉 刺 激 的 物 我 距离 3 m、4 m 和 5 m) 比 较 小 , 使 得 
我 们 无 法 得 到 物 我 距离 的 主 效应 。 我 们 需要 在 物 我 
距离 明显 影响 空间 压缩 的 情况 下 进行 实验 ， 以 进 一 
步 研究 听觉 刺激 的 效果 。 最 后 , 我 们 没有 进行 纯 听 
觉 的 实验 。 因 此 , 在 本 研究 中 ,我们 无 法 计算 出 听 
觉 和 视觉 模 态 各 自 的 权重 。 我 们 需要 在 未 来 进行 完 
整 的 实验 ( 纯 听 觉 、 纯 视觉 和 视听 觉 )。 
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总 而 言 之 ,我 们 发 现 听觉 刺激 可 以 通过 两 种 方 
式 影响 空间 压缩 ， 与 单纯 的 视觉 条 件 相 比 ， 听觉 和 
视觉 刺激 的 同时 存在 可 以 改善 空间 压缩 。 此 外 ， 空 
间 压 缩 率 与 听觉 和 视觉 刺激 之 间 的 物 物 距离 呈 负 
相关 。 我 们 建议 听觉 和 视觉 刺激 同时 呈现 ， 且 之 间 
的 物 物 距离 至 少 为 1 m。 
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Effect of auditory stimulus on distance compression in virtual reality 


HU Xiaofei, WANG Jiawei, LIU Hanyu, SONG Xiaolei 


(School of Psychology, Shaanxi Normal University; 
Shaanxi Key Laboratory of Behavior and Cognitive Neuroscience, Xi’an 710000, China) 


Abstract 

Distance compression in virtual reality (VR), which will lead to a distortion of fine manipulation in 
practical application, depicts that people tend to underestimate the spatial distance of visual stimuli in virtual 
environments. The apparent perceived differences between virtual and real environments break the immersive 
experiences and lower users' acceptance. Therefore, it is crucial to ameliorate the distance compression to 
increase the fidelity and ultimately promote the wider application of VR. Capitalizing on the fact that distance 
compression is a multiple modality phenomenon and occurs for auditory and visual stimuli, researchers reported 
that the distance judgment in VR would get more accurate when the positions of auditory and visual stimuli were 
incongruent. However, it is unclear to what extent the incongruency is to get effective amelioration. In this study, 
we aimed to completely examine the effect of the auditory stimulus on distance compression in VR. We 
presumed that the larger the incongruency was, the better amelioration obtained. 
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We used the HTC Vive Pro to render the virtual environment and the build-in headphone to present auditory 
stimulus. Thirty participants were recruited to perform a distance judgment task. We first controlled the presence 
or absence of the auditory stimulus. We also varied the egocentric distance of visual stimulus (3 m, 4 m, 5 m). 
Then, we controlled the incongruency of the audio-visual condition, that is, the exocentric distance between 
auditory and visual stimuli (0.5 m, 1 m, 1.5 m, 2 m). Each block consisted of 30 consecutive trials, wherein the 
reference visual stimulus was presented at the beginning 5 s. Participants were asked to judge whether the 
following adjust stimulus was nearer or farther than the reference stimulus. The egocentric distance would be 
adjusted according to the response of the prior trial. The egocentric distance of the adjust stimulus in the last 
trial was referred to as the ultimate distance judgment for the initial reference stimulus. 

We found that the auditory stimulus affected the distance compression in two ways. First, the distance 
compression under the audio-visual condition was smaller than that under the visual-only condition (F(1, 29) = 
4.05, p = 0.054, n = 0.12), especially when the egocentric distance of the visual stimulus was large (4 m: 
difference = 1.8%, t = —1.59, df= 29, p = 0.062; 5 m: difference = 1.6%, t = —1.85, df= 29, p = 0.037). Second, 
we formulated the relationship between the exocentric distance between auditory and visual stimuli and the 
distance compression rate, which was calculated by subtracting the perceived egocentric distance from the 
physical egocentric distance and then dividing it by the physical egocentric distance.: distance compression rate = 
—0.024 x exocentric distance + 0.056. The slope was significant (p = 0.008), indicating the distance compression 
rate was negatively correlated with the exocentric distance and could be ameliorated at a pace of 2.4% for every 
1 m. The adjusted R° was 90.7%. 

We reported the effect of auditory stimulus on the distance compression in VR. Based on our results, we 
highly recommended presenting the auditory and visual stimuli simultaneously in the time domain and a 
minimum of 1 m apart in the space domain to ameliorate the distance compression in VR. 

Keywords virtual reality, distance compression, auditory and visual stimuli, egocentric distance, exocentric 
distance 


